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摘 要 


以 LLAMA 为 代表 的 开源 大 语言 模型 广泛 使 用 旋转 位 置 编码 ， 原 始 论文 使 用 复 函 数 推导 。 本 
文 改 用 线性 代数 推导 ， 期 望 更 好 地 理解 该 编码 方法 ; 提出 该 方法 的 一 个 疑点 并 给 出 了 改进 建 
议 。 
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Abstract 


The Rotary Position Embeddings(RoPE) is widely used in open-source large language models such 
as LLAMA. In the original paper, the formula derivation uses complex functions. In this Paper, | derive 


PoPE’s formulas again with linear algebra, hoping to better understand this method. 
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1 引言 


2022 年 11 月 发 布 的 ChatGPT 引爆 新 一 轮 科 技 创 新 ，LLAMA 模型 [2] 开源 后 ， 一 大 批 大 
语言 模型 发 布 ， 例 如 Baichuan-7B ' 采用 了 与 LLAMA 相同 的 模型 结构 。 旋转 位 置 编码 (Rotary 
Position Embeddings, RoPB)[1] 是 LLAMA 模型 的 一 个 重要 组 件 ， 原 始 论文 使 用 复 变 函数 的 理论 
| 对 不 熟悉 复 变 函数 的 人 来 说 不 容易 理解 。 本 文 尝试 使 用 更 常用 见 的 线性 代数 来 推导 , 期 

望 能 让 更 多 人 理解 这 个 优秀 的 编码 方法 。 


* 完 稿 日 期 : 2023 年 7 月 10 日 
https://github.com/baichuan-inc/baichuan-7B 


2 因数 定义 


作为 准备 ， 本 节 定 义 儿 个 函数 。 目 前 pytorch 代码 中 数组 的 组 织 方 式 是 行 优先 ， 序号 从 0 开 
6， 因 此 本 文中 的 向 量 、 算 阵 也 按 行 优先 来 定义 ， 甜 阵 元 素 的 序号 也 从 0 开始。 

任意 给 定 正 整数 m 和 n， 行 向 量 用 黑体 小 写字 母 表示 ， 形 式 为 x = (x0,X1,.….,Xn-1)。 和 矩阵 
用 大 写字 母 表示 ， 形 式 为 


X00 X01 X0,n—1 
X10 X11 Xl,n-1 
X= 
Xm-1,0 Xm-l,l ‘** Xm-l,n-l 
软 大 函数 (softmax) 定义 为 
1 
smax(x) = 一 一 一 一 一 (ee .， e™"-1), 
i=n—l1 x, 
D0 Em 
smax(xo:) 
smax(x1:) 
smax(X) = = (smax(x0:); smax(x1:);...; smax(xm-1:)), 


Smax(Xm-1:) 


这 里 的 Xi: 二 (Xio, Xil,...» nid) 圆 括号 里 的 分 号 表示 换行 。 


3 旋转 位 置 编 码 


在 LLAMA 模型 中 ， 自 注意 力 的 核心 运算 是 软 大 函数 ， 即 用 给 定 “ 查 ”矩阵 和 “ 值 ” 甜 
阵 开 ， 计 算 


QKT 
这 里 8 的 尺寸 是 ns xne，n3 是 当前 序列 长 度 ， 每 生成 一 个 词 碎 (token) 后 加 1; n6 是 单个 注意 
力 头 的 宽度 , 在 LLAMA-7B 中 ne = 128。 开 的 尺寸 与 2 的 尺寸 相同 , 元 素 值 不 同 。 记 R = OK7， 
矩阵 尺 的 尺寸 是 mg xma。 将 矩阵 QO、 天 、RR 的 形式 分 别 记 为 


qo: ko: 700 rol ro,ns-l 
q1: ki1: ri0 Fh sig 
O = 到 二 R= 
qns-1: Kns-1: rns-1,0 Tns-ll “°° Tns-l,ns-l 
向 量 qi; 和 ki; 对 应 当前 序列 里 的 第 i 个 词 碎 ，i = 0,1,… ,n3， 实 数 rij 是 gi: 和 i: 的 内 积 ， 即 
rij = qi:ki (1) 


位 置 编码 的 目标 是 对 问 量 gi; 和 kj 分 别 施加 一 个 带 绝 对 位 置信 息 i 和 j 的 变换 f， 即 广 ) = 
(qi)f(ki)”， 以 满足 下 列 要 求 : 
(cl) 在 i=j 时, 施加 变换 后 内 积 保持 不 变 ， 即 启 ; = rii。 对 应 到 词 碎 序列 上 的 意义 是 , 任意 位 置 
上 词 碎 的 自身 内 积 不 受 变 换 f 影响 。 
(c2) 变换 后 它们 的 内 积 广 ) 只 包含 相对 位 置信 息 i -7， 不 再 包含 绝对 位 置信 息 。 


2 


碎 离 得 越 远 ， 相 互 影 响 越 小 。 

作为 科研 的 基本 套路 ， 先 看 最 简单 情形 ，ne = 2。 向 量 分 别 写 出 来 ，gi: = (qi0, 911)”, kj: = 
(kjo,kj1)”。 假 设 变换 f 是 一 个 线性 变换 ， 即 f(gi:) = qi:Ai， 这 里 的 hi 是 一 个 尺寸 为 2x2 的 矩 
阵 。 从 而 有 


fij = f (qi)f (ks) = qiAi(ky:Ay)” = qiAiAy ki. (2) 
对 式 (2) 应 用 (cl)， 可 以 得 到 
4i47 =1, HAi:#I. (3) 
式 (3) 要 求 Ai 是 正 交 和 矩阵， 而 线性 代数 中 常见 的 正 交 和 矩阵 是 旋转 矩阵 
| cos0 sing | 
1e = ， 
一 SimnO cosb0 
CD 容易 验证 Jo15 = 了。 
= 注意 到 ，gz7e 的 几何 含义 是 将 向 量 gi: 旋转 弧度 69，gi:1016 的 几何 含义 是 将 向 量 qi: 旋转 弧 
度 9 后 , 再 旋转 弧度 -9, 两 次 旋转 的 弧度 抵消 , 向 量 值 保持 不 变 。 如果 两 次 旋转 的 弧度 不 同 , 那 
最 终 效果 就 是 旋转 一 个 差 值 弧度 。 因 此 ， 记 位 置 i 和 jj 上 的 旋转 弧度 分 别 是 4 和 9;， 容 易 验 证 


二 cos0i singi | cosg; 一 Singi | _ cos(0;:—0;) sin(0;—0;)) 
4 一 SinO0 cosO; sinG; cosOi —sin(0:—0;) cos(0 一 0 
记 01=0:-0;, 将 Ai= 1e, 和 Aj= 1 代入 (2), 得 到 
fij = qi:(Te:10 )K = qiTowky:. (4) 
~ 显然 ， 式 (4) 只 包含 相对 位 置信 息 9;; ， 满 足 要求 (c2)。 
SZ 词 碎 序列 中 的 每 个 位 置 i= 0,1,...,ns -1， 都 要 对 应 一 个 0;:。 原 始 论 文 [1] 的 选择 是 一 个 等 
加 差 数列 ， 即 先 选 定 和 和 ， 然 后 令 4 = i90。 
一 当 m6 是 大 于 2 的 偶数 时 ,可 以 二 维 一 组 地 处 理 , 即 对 长 度 为 m6 的 行 向 量 qi: = (qio, 9i1,.……， Gin6-1) 
作 旋 转变 换 qi:4i， 
cosi60 sinz60 0 0 0 0 
-sin7160 cos160 0 0 0 0 
0 0 cosi10。 sini0» 0 0 
4i = 0 0 -sini10。 cos10。 0 0 
0 0 0 0 cosig0 2 sini0n 2 
0 0 0 0 一 sini0ne -2 COS 10 -2 
对 于 弧度 9:，1 = 0,2,6,...,n6 一 2， 原 始 论 文 [1] 使 用 固定 值 
G1 = 10000-7ne， G) 
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图 1: 当 00=1 时 ， 内 积 中 图 2: 当 00 = 去 条 时 ,内 
的 旋转 弧度 积 中 的 旋转 弧度 


4 疑点 与 建议 


按照 式 (4) 计算 ，6 = 1， 对 词 碎 位 置 差 值 j -i= 1 2,.……,50 和 向 量 的 前 2 维 分量 ， 内 积 运 
算式 (4) 中 的 弧度 差 是 5 = (j 一 让 01, 模 2x 后 的 变化 走势 见 图 1, 当 j-i=6 时 , 弧度 差 0ij = 6; 
当 j-i=7 时， 弧度 差 91; = 0.7168。 相 距 更 远 的 两 个 词 碎 ， 旋 转 弧度 差 反 而 更 小 ， 不 符合 要 求 
(c3)。 

本 文 建议 尝试 将 式 (4) 更 改 为 


B= 210000™"/", 
9 
这 里 的 no 是 序列 的 最 大 长 度 ， 例 如 取 值 2048。 更 改 之 后 的 效果 见 图 2， 满 足 要 求 (c3)。 
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